Guía de Programación CUDA: Mapeo entre Hardware y Software: Versiones de Capacidad de Computación

La Capacidad de Computación (CC) actúa como el puente de versión entre arquitectura virtual (PTX) y arquitectura real (SASS/Binario). Los desarrolladores usan nvcc para dirigirse a plataformas específicas, que van desde plataformas de escritorio/servidor hasta plataformas embebidas, en modelos de sistema operativo como Linux de 64 bits (LP64) o Windows de 64 bits (LLP64).

1. Arquitecturas Virtuales frente a Reales

La herramienta CUDA soporta arquitecturas de GPU de las dos últimas versiones principales, referenciadas en Tabla 29: Soporte de Funcionalidades según Capacidad de Computación (7.5 a 12.x). Definimos mapeos usando banderas como: nvcc --generate-code arch=compute_80,code=sm_90 prog.cu. Para objetivos futuros, se usan banderas como nvcc -arch=sm_100 o variantes especializadas como nvcc -arch=sm_100a se utilizan.

2. Jerarquía de Macros

El compilador usa __CUDA_ARCH__ para ramificar el código. La macro __CUDA_ARCH__ solo está definida en código de dispositivo (por ejemplo, __device__, __global__). Se proporciona un control más granular mediante __CUDA_ARCH_SPECIFIC__ y __CUDA_ARCH_FAMILY_SPECIFIC__. Algunas funciones, como Memoria Compartida Distribuida o cargas específicas valores NaN, requieren Capacidad de Computación 9.0+ o Capacidad de Computación 10.0 y posteriores.

3. Límites y Restricciones Numéricos

La precisión varía según la CC; por ejemplo, el manejo de valores subnormales asegura que $2^{-16382} \approx 3.36 \cdot 10^{-4932}$. Límites de hardware como CUDA_DEVICE_MAX_COPY_CONNECTIONS=16 o la directiva .maxnreg de PTX se aplican estrictamente según la versión de CC objetivo.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Where is the __CUDA_ARCH__ macro strictly defined?

In both host and device code to identify the GPU hardware.

Only in device code (__device__, __host__ __device__, or __global__).

Only in the host-side main() function.

In the NVML API headers only.

QUESTION 2

Which command correctly targets a virtual arch of 8.0 and a real arch of 9.0?

nvcc -arch=sm_80,code=compute_90

nvcc --generate-code arch=compute_80,code=sm_90

nvcc --target=cc_8.0_9.0

nvcc -arch=sm_90

QUESTION 3

What is the consequence of declaring 'namespace cuda { struct foo; }' in CUDA code?

It enables high-speed memory access.

It is an error; the 'cuda' namespace is reserved.

It is required for using cuda::std::result_of.

It allows the use of __nv_atomic_load.

QUESTION 4

Which mathematical property is associated with CC 9.x and higher?

Support for 16-byte data types.

Basic support for fabs(x) and sin(x).

Introduction of the warpSize macro.

Ability to use x + y in kernels.

QUESTION 5

What happens when an extended lambda is defined inside a generic lambda using Microsoft Visual Studio host compilers?

It compiles successfully and inlines perfectly.

The host compiler may fail to inline or throw an error.

It enables __managed__ memory by default.

It triggers the on-disk JIT compilation cache.